IDF (Inverse Document Frequency)
逆文書頻度
GPT-4.icon
ある単語が「どれくらい珍しいか(特異性があるか)」を測る指標
$ IDF(t) = \log \left(\frac{\text{全文書数}}{\text{単語 } t \text{ を含む文書数}} \right)
よく出現する単語(例: 「の」「は」「です」)の影響を抑える
「珍しい単語」ほど高い値を持ち、「ほとんどの文書に出る単語」ほど低い値になる。
例えば、ある単語が1000文書のうち10文書にしか登場しない場合、
$ IDF = \log \left(\frac{1000}{10}\right) = \log(100) = 2
となる
/mrsekut-book-4908686130/025